随着时间的流逝,肿瘤体积和肿瘤特征的变化是癌症治疗的重要生物标志物。在这种情况下,FDG-PET/CT扫描通常用于癌症的分期和重新分期,因为放射性标记的荧光脱氧葡萄糖在高代谢的地区进行了。不幸的是,这些具有高代谢的区域不是针对肿瘤的特异性,也可以代表正常功能器官,炎症或感染的生理吸收,在这些扫描中使详细且可靠的肿瘤分割成为一项苛刻的任务。 AUTOPET挑战赛解决了这一研究差距,该挑战提供了来自900名患者的FDG-PET/CT扫描的公共数据集,以鼓励该领域进一步改善。我们对这一挑战的贡献是由两个最先进的分割模型组成的合奏,即NN-UNET和SWIN UNETR,并以最大强度投影分类器的形式增强,该分类器的作用像是门控机制。如果它预测了病变的存在,则两种分割都是通过晚期融合方法组合的。我们的解决方案在我们的交叉验证中诊断出患有肺癌,黑色素瘤和淋巴瘤的患者的骰子得分为72.12 \%。代码:https://github.com/heiligerl/autopet_submission
translated by 谷歌翻译
在设计多模式系统时,模态选择是一个重要的步骤,尤其是在跨域活动识别的情况下,因为某些模态比其他模式更适合域移动。但是,仅选择具有积极贡献的方式需要系统的方法。我们通过提出一种无监督的模态选择方法(ModSelect)来解决此问题,该方法不需要任何地面真相标签。我们确定多个单峰分类器的预测与它们的嵌入之间的域差异之间的相关性。然后,我们系统地计算模态选择阈值,该阈值仅选择具有较高相关性和低域差异的模态。我们在实验中表明,我们的方法ModSelect仅选择具有积极贡献的模态,并始终提高合成到现实域的适应基准的性能,从而缩小域间隙。
translated by 谷歌翻译
在活动识别模型的现实应用应用中,域移动(例如外观变化)是一个关键挑战,范围从辅助机器人和智能家居到智能车辆的驾驶员观察。例如,虽然模拟是一种经济数据收集的绝佳方式,但合成到现实的域转移导致识别日常生活活动(ADL)的精度下降> 60%。我们应对这一挑战,并引入了一个活动域生成框架,该框架从视频培训数据推断出的不同现有活动方式(源域)中创建了新颖的ADL外观(新域)。我们的框架计算人体姿势,人体关节的热图和光流图,并将它们与原始RGB视频一起使用,以了解源域的本质,以生成全新的ADL域。通过最大化现有源外观和生成的新颖外观之间的距离,同时确保通过额外的分类损失保留活动的语义,可以优化该模型。虽然源数据多模态在此设计中是一个重要的概念,但我们的设置不依赖于多传感器设置(即,仅从单个视频中推断出所有源模式。)然后将新创建的活动域集成到训练中。 ADL分类网络,导致模型不太容易受到数据分布的变化的影响。对合成基准的SIMS4Action进行的广泛实验证明了域产生范式对跨域ADL识别的潜力,从而设定了新的最新结果。我们的代码可在https://github.com/zrrrrr1997/syn2real_dg上公开获得
translated by 谷歌翻译
在本文中,我们介绍了全景语义细分,该分段以整体方式提供了对周围环境的全景和密集的像素的理解。由于两个关键的挑战,全景分割尚未探索:(1)全景上的图像扭曲和对象变形; (2)缺乏培训全景分段的注释。为了解决这些问题,我们提出了一个用于全景语义细分(Trans4Pass)体系结构的变压器。首先,为了增强失真意识,Trans4Pass配备了可变形的贴片嵌入(DPE)和可变形的MLP(DMLP)模块,能够在适应之前(适应之前或之后)和任何地方(浅层或深度级别的(浅层或深度))和图像变形(通过任何涉及(浅层或深层))和图像变形(通过任何地方)和图像变形设计。我们进一步介绍了升级后的Trans4Pass+模型,其中包含具有平行令牌混合的DMLPV2,以提高建模歧视性线索的灵活性和概括性。其次,我们提出了一种无监督域适应性的相互典型适应(MPA)策略。第三,除了针孔到型 - 帕诺amic(PIN2PAN)适应外,我们还创建了一个新的数据集(Synpass),其中具有9,080个全景图像,以探索360 {\ deg} Imagery中的合成对真实(Syn2real)适应方案。进行了广泛的实验,这些实验涵盖室内和室外场景,并且使用PIN2PAN和SYN2REAL方案进行了研究。 Trans4Pass+在四个域自适应的全景语义分割基准上实现最先进的性能。代码可从https://github.com/jamycheung/trans4pass获得。
translated by 谷歌翻译
人具有天生的感知周围环境的能力,因为他们可以从以自我为中心的感知中提取空间表示,并通过空间转换和内存更新形成同类语义图。但是,由于两个困难,赋予具有这种空间感应能力的移动试剂仍然是一个挑战:(1)先前的卷积模型受到局部接收场的限制,因此,在观察过程中努力捕获整体的长距离依赖性; (2)成功所需的过度计算预算通常会导致映射管道分为阶段,从而导致整个映射过程效率低下。为了解决这些问题,我们提出了一个基于映射的端到端一阶段变压器的框架,称为Trans4map。我们的以自我为中心的中心映射过程包括三个步骤:(1)有效的变压器从一批以自我为中心的图像中提取上下文特征; (2)提出的双向同类记忆(BAM)模块将自中心的特征投入到同类中心的内存中; (3)地图解码器解析了累积的内存并预测自上而下的语义分割图。相比之下,Trans4MAP取得了最新结果,减少了67.2%的参数,但在MatterPort3D数据集上获得了 +3.25%MIOU和A +4.09%MBF1的改进。代码将在https://github.com/jamycheung/trans4map上公开提供。
translated by 谷歌翻译
未能及时诊断并有效治疗抑郁症会导致全世界有超过2.8亿人患有这种心理障碍。抑郁症的信息提示可以从不同的异质资源(例如音频,视觉和文本数据)中收获,从而提高了对自动估计的新有效多模式融合方法的需求。在这项工作中,我们解决了从多模式数据中自动识别抑郁症的任务,并引入了一种接触机制,以连接异质信息,同时利用卷积双向LSTM作为我们的骨架。为了验证这一想法,我们对公共DAIC-WOZ基准进行了广泛的实验,以进行抑郁评估,该评估具有不同的评估模式,并考虑了特定性别的偏见。提出的模型在检测严重抑郁症和4.92 MAE时以0.89的精度和0.70 F1得分产生有效的结果。我们基于注意力的融合模块始终优于常规的晚期融合方法,并且与先前发表的抑郁估计框架相比,取得了竞争性能,同时学习诊断端到端的疾病并依靠较少的预处理步骤。
translated by 谷歌翻译
在这项工作中,我们将全景景观分割介绍为最整体的场景理解,无论是在视野(FOV)和图像级别的理解方面,用于基于标准摄像机的输入。完整的围绕理解为移动代理提供了最大的信息,这对于任何智能车辆至关重要,以便在安全至关重要的动态环境(例如现实世界流量)中做出明智的决定。为了克服缺乏带注释的全景图像,我们提出了一个框架,该框架允许在标准针孔图像上进行模型训练,并以成本限制的方式将学习的功能传输到不同的域。使用我们提出的方法和密集的对比度学习,我们设法对非适应方法实现了重大改进。根据有效的综合分割体系结构,我们可以在我们已建立的野生全景泛滥分割(WILDPPS)数据集中,以圆锥体质量(PQ)测量的3.5-6.5%提高3.5-6.5%。此外,我们的有效框架不需要访问目标域的图像,使其成为适合有限硬件设置的可行域概括方法。作为其他贡献,我们发布了WILDPPS:第一个全景全景图像数据集,以促进周围感知的进展,并探索一种结合受监督和对比度培训的新型培训程序。
translated by 谷歌翻译
本地功能匹配是在子像素级别上的计算密集任务。尽管基于检测器的方法和特征描述符在低文本场景中遇到了困难,但具有顺序提取到匹配管道的基于CNN的方法无法使用编码器的匹配能力,并且倾向于覆盖用于匹配的解码器。相比之下,我们提出了一种新型的层次提取和匹配变压器,称为火柴场。在层次编码器的每个阶段,我们将自我注意事项与特征提取和特征匹配的交叉注意相结合,从而产生了人直觉提取和匹配方案。这种匹配感知的编码器释放了过载的解码器,并使该模型高效。此外,将自我交叉注意在分层体系结构中的多尺度特征结合起来,可以提高匹配的鲁棒性,尤其是在低文本室内场景或更少的室外培训数据中。得益于这样的策略,MatchFormer是效率,鲁棒性和精度的多赢解决方案。与以前的室内姿势估计中的最佳方法相比,我们的Lite MatchFormer只有45%的Gflops,但获得了 +1.3%的精度增益和41%的运行速度提升。大型火柴构造器以四个不同的基准达到最新的基准,包括室内姿势估计(SCANNET),室外姿势估计(Megadepth),同型估计和图像匹配(HPATCH)和视觉定位(INLOC)。
translated by 谷歌翻译
本文提出了一种新颖的地理跟踪方法,即通过在室外环境中进行连续的度量自我定位,通过注册车辆的传感器信息,以看不见的目标区域的空中图像。地理跟踪方法为取代全球导航卫星系统(GNSS)的嘈杂信号提供了潜力,并且昂贵且难以维护通常用于此目的的先前地图。所提出的地理跟踪方法将来自板载摄像机和LiDAR传感器的数据与地理注册的正射击对准,以连续定位车辆。我们在公制学习环境中训练模型,以从地面和空中图像中提取视觉特征。地面特征通过激光雷达点投影到自上而下的视角,并与空中特征相匹配,以确定车辆和正射击之间的相对姿势。我们的方法是第一个在端到端可区分模型中使用板载摄像机在看不见的正射击上进行度量自定位。它表现出强烈的概括,对环境的变化是强大的,并且只需要地理姿势作为地面真理。我们在Kitti-360数据集上评估我们的方法,并达到平均绝对位置误差(APE)为0.94m。我们进一步与Kitti Odometry数据集的先前方法进行了比较,并在地理跟踪任务上实现了最新结果。
translated by 谷歌翻译
尽管当前的交互式视频对象细分方法(IVO)依靠基于涂鸦的交互来生成精确的对象掩码,但我们提出了一个基于点击的交互式视频对象细分(CIVOS)框架,以尽可能简化所需的用户工作负载。 CIVOS建立在反映用户互动和掩盖传播的DE耦合模块的基础上。交互模块将基于点击的交互转换为对象掩码,然后通过传播模块推断为其余帧。其他用户交互允许对象蒙版进行改进。该方法对流行的交互式〜戴维斯数据集进行了广泛的评估,但不可避免地适应了基于点击的基于点击的相互作用。我们考虑了在评估过程中生成点击的几种策略,以反映各种用户输入,并调整戴维斯性能指标以执行与硬件无关的比较。提出的CIVOS管道取得了竞争成果,尽管需要较低的用户工作量。
translated by 谷歌翻译